时政
财经
科技
虚拟货币
其他
登录
#sparse MoE
关注
马东锡 NLP
3小时前
读了 Gemini 3 的 model card,会发现 Gemini 3 明确不是 Gemini 2.5 的微调,它是全新训练的 sparse MoE 。 也就是说,在 Gemini 2.5 已经非常出色的 RL 后训练和 parallel thinking 基础上,崭新的 backbone 让 Gemini 3 非常出色,总结这半年 Gemini 的工作: 1. 出色的 RL 后训练 2. parallel thinking 3. 崭新的 backbone 4. 一个又一个公开的对行业有益的benchmark,如 IMO-Bench 对比一下这半年 OpenAI 做了什么? 1. 不存在的 GPT-5 2. Adaptive thinking, 主打一个为企业省钱,把用户当sb 2. 被人遗忘的 agent mode 3. proactive assistant,涌动的广告之心 4. credit expiration,紧盯着用户的钱包 5. Sam 永无止境的 Hype 什么是伟大的公司,什么是鸡贼的公司?
#Gemini 3
#全新训练
#sparse MoE
#RL后训练
#parallel thinking
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞